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fi 要 


视觉 情境 范式 是 一 种 通过 追踪 、 测 量 人 眼 在 视觉 物体 上 的 注视 轨迹 来 研究 实时 口语 加 工 的 眼 动 实验 
范式 。 该 范式 运用 于 语言 理解 类 研究 的 理论 基础 是 眼 动 连接 假设 (如 : 协同 互动 理论 、 


基于 目标 的 连接 假设 理 


HF), 这些 连接 假设 在 眼 动 轨迹 与 口语 加 工 进程 之 间 建 立 起 了 有 意义 的 关联 。 使 用 视觉 情境 范式 所 获取 的 数 


据 能 够 为 口语 加 工 提供 精确 的 时 间 信息 ， 


常用 的 数据 分 析 方法 包括 : 时 间 兴 趣 区 内 注视 比例 均值 分 析 、 分 又 点 


分 析 、 生 长 曲线 分 析 等 。 该 范式 为 研究 词汇 语音 识别 、 句 法 解 层 、 语 义理 解 、 语 篇 语 用 信息 加 工 等 问题 提供 


了 关键 性 证 据 。 
关键 词 ”视觉 情境 范式 ， 眼 动 追踪 ， 口 语 加 工 
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语言 加 工 的 时 间 进 程 问题 一 直 是 心理 语言 学 
领域 的 核心 议题 之 一 。 探 讨 这 一 问题 有 三 层 重要 
意义 : 首先 , 不 同 层面 的 语言 信息 (语音 、 语 义 、 
句法 、 语 篇 、 语 用 等 ) 以 及 不 同 来 源 的 信息 (语言 输 
人 人、 视觉 环境 、 世 界 知识 等 ) 在 何 时 被 认 知 系统 加 
工 处 理 对 于 语言 理解 模型 的 建构 至 关 重 要 。 例 如 ， 
McRae 等 人 (1998) 的 基于 约束 的 语言 加 工 模型 
(constraint-based model), 就 是 根据 歧义 句 理解 的 
时 间 进 程 证 据 提出 的 。 其 次 , 研究 影响 语言 理解 
的 因素 (如 : 词 频 、 语 言 水 平 、 认 知 能 力 等 ) 如 何 起 
作用 也 需要 语言 加 工 的 时 间 进 程 信息 ， 如 : Magnuson 
等 人 (2003) 通 过 考察 听 者 理解 语音 输入 时 锁定 目 
标 指 代 对 象 的 时 间 , 提出 了 词 频 会 影响 词汇 识别 
的 论断 。 此 外 , 语言 要 素 加 工 的 时 间 线 也 可 以 作 
为 反映 语言 理解 能 力 的 重要 指标 , 在 儿童 语言 习 
得 、 二 语 加 工 以 及 老年 人 语言 能 力 评估 等 方面 发 
挥 作用 (Saryazdi & Chambers, 2021)。 作 为 探究 口 
语 加 工时 间 进 程 的 重要 工具 ,视觉 情境 范式 (visual 
world paradigm) 可 以 提供 精确 的 时 间 信 息 ， 揭 示 
各 个 层面 口语 加 工 的 问题 。 

视觉 情境 范式 是 一 种 通过 追 足 、 测 量 人 有 眼 在 


视觉 环境 中 的 注视 轨迹 研究 实时 口语 理解 加 工 的 实 
验 范式 (Allopenna et al., 1998; Salverda & Tanenhaus, 
2018)。 随 着 上 个 址 纪 60 年 代 末了 眼 动 追踪 仪器 与 
电脑 接口 的 实现 ， 即 时 记录 有 眼 动 轨迹 以 及 自动 处 
理 眼 动 数 据 成 为 可 能 。70 年 代 中 期 , 利用 眼 动 技 
术 进 行 的 书面 阅读 人 研究 已 取得 大 量 进 展 (综述 见 : 
Rayner, 1978)。 与 此 同时 , Cooper (1974) 第 一 次 尝 
试 使 用 眼 动 追踪 技术 对 口语 理解 进行 测量 。 这 项 
早期 研究 首次 将 听 者 对 视觉 物体 的 注视 与 语言 加 
工 建立 了 联系 。1995 年 Tanenhaus 等 人 在 《科学 》 
上 发 文 , 阐释 了 如 何 利用 眼 动 追踪 技术 揭示 歧义 
句 的 加 工 过 程 ， 视觉 情境 范式 (由 Allopenna et al., 
1998 定名 ) 才 开始 大 量 被 应 用 于 口语 加 工人 研究 ， 
成 为 心理 语言 学 、 认 知心 理学 领域 最 重要 的 人 研究 
手段 之 一 ( 印 丽 景 等 , 2009; 林 桐 ， 王 娟 , 2018)。 
本 文 主要 阐释 了 如 何 利 用 眼 动 视觉 情境 范式 
探究 口语 加 工 的 时 间 进 程 。 为 了 阐明 这 一 问题 ， 
本 文 将 首先 介绍 眼 动 实验 范式 中 的 连接 假设 , 将 
视觉 场景 中 的 眼 动 轨迹 与 语言 的 理解 过 程 建 立 起 
联系 , 并 且 充 分 说 明 视 觉 情境 范式 在 任务 及 数据 
上 有 哪些 时 间 性 的 特点 ， 以 及 如 何 利用 这 些 特点 
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进行 数据 分 析 ; 进而 以 口语 加 工 的 时 间 进 程 为 主 
线 , 综述 近 20 多 年 来 使 用 该 范式 的 研究 在 语音 、 

语义 、 句 法 、 语 篇 与 语 用 加 工 等 方面 的 实证 发 现 ， 
进一步 说 明 这 一 高 时 间 人 敏感 性 范式 在 口语 加 工时 
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间 进 程 研 究 中 的 贡献 。 

1 有 眼 动 轨迹 与 语言 加 工 进程 的 连接 假设 
视觉 情境 范式 眼 动 研究 方法 的 理论 基础 是 连 

接 假 设 (linking hypotheses)， 这 类 假设 将 眼 动 轨迹 

与 口语 理解 的 认 知 过 程 建 立 起 了 联系 (Allopenna 

et al., 1998; Tanenhaus et al., 2000)。 上 有 具体 来 说 ， 当 


Crocker, 2007). 

Altmann 和 Mirković (2009) 提 出 了 另 一 种 连 
接 假设 理论 ， 这 一 理论 同样 也 认同 语句 加 工 受 到 
语言 信息 (如 : 实时 语言 输入 、 语 境 信息 ) 和 非 语言 
信息 (如 : 视觉 场景 、 世 界 知识 ) 的 共同 影响 。 但 不 
同 于 Knoeferle 和 Crocker (2006, 2007) 的 协同 互动 
理论 , Altmann 和 Mirkovié (2009) 认 为 处 理 视 觉 场 


听 者 处 理 口语 信息 时 ， 会 将 语言 所 描述 的 情景 形 
成 动态 的 心理 表征 (mental representation); 而 理 


景 信息 与 理解 语言 输入 的 过 程 在 心理 表征 和 处 理 
时 间 上 都 是 无 法 分 割 的 一 一 因为 语言 信息 和 非 语 


解 者 对 心理 表征 中 特定 实体 的 关注 会 随 着 语言 信 
息 的 输入 而 变化 一 一 相应 地 ,他们 在 视觉 空间 中 
的 注视 点 也 会 随 之 移动 (Altmann & Kamide, 2007)。 
这 种 注视 的 聚集 和 移动 ,伴随 着 瞳孔 位 置 的 改 
变 。 通 过 眼 动 追踪 手段 ， 瞳 孔 位 置 移动 的 轨迹 可 
以 被 有 效 测 量 ， 进 而 揭示 口语 加 工 的 时 间 进 程 。 
过 去 20 年 间 ,， 学 界 提 出 了 诸多 反映 眼 动 与 口语 加 
工 之 间 关 系 的 具体 连接 假设 理论 ,用 于 阐释 视觉 
注意 如 何 被 分 配 到 指 代 物 体 之 上 ( 见 综述 Magnuson, 
2019)。 本 文 总 结 了 其 中 比较 有 影响 力 的 三 种 连接 
假设 理论 ， 进一步 前 明 将 视觉 情境 范式 应 用 于 口 
语 加 工 研究 的 理论 基础 。 这 些 连 接 假 设 虽 未 直接 
就 具体 语言 元 素 加 工 的 时 间 进 程 进行 界定 , 但 其 
假设 中 包含 了 口语 加 工 的 蔡 干 阶段 ,是 探讨 加 工 
时 间 进 程 的 前 提 基 础 。 

Knoeferle 和 Crocker (2006, 2007) 提 出 的 协同 
互动 理论 (coordinated interplay account) 将 基于 视 
觉 情 境 的 口语 理解 分 为 三 个 主要 阶段 : (1) 在 原 有 
的 语句 结构 中 整合 新 输入 的 词 ， 形成 新 的 语句 理 
ft, 并 基于 这 一 新 信息 和 原 有 的 语言 信息 、 相 关 
世界 知识 ,共同 形成 对 后 面 语句 的 预测 ; (2) 在 包 
含 之 前 视觉 场景 的 工作 记忆 中 ,搜寻 词语 所 指 代 
的 物体 或 者 是 基于 第 一 阶段 信息 可 以 预测 到 的 物 
体 ; 3) 将 语言 输入 (名 词 、 动 词 等 ) 与 视觉 场景 中 的 


言 信息 都 存储 在 同一 套 系统 中 ,共同 构成 了 对 情 
景 的 动态 表征 。 当 上 听 者 接收 到 某 一 信息 时 ， 关 于 
客体 的 表征 (包括 与 此 客体 相关 的 体验 、 知 识 等 ) 
会 被 激活 。 而 随 着 听 者 不 断 接 收 不 同 来 源 的 信息 
(语言 输入 、 视 觉 场 景 、 世 界 知识 等 ) 关于 客体 的 
表征 就 会 不 断 变 化 。 当 不 同 来 源 的 信息 出 现 重合 
时 ,客体 表征 的 激活 就 会 加 强 。 这 一 表征 系统 的 
不 同 状态 体现 在 心智 表征 (mental representation) 
层面 就 是 注意 力 的 分 配 ， 而 注意 力 的 分 配 影 响 了 
眼 动 轨迹 。 换 言 之 , 伴随 语句 输入 , 受 试 者 对 视觉 
物体 的 注视 在 时 间 上 的 变化 轨迹 ,是 由 包含 语言 
信息 、 语 境 信息 、 视 觉 场 景 、 世 界 知识 等 的 一 套 
共同 表征 系统 所 影响 并 驱动 的 。 在 该 理论 假设 框 
架 下 , 不 同 来 源 的 信息 对 口语 加 工会 产生 即时 影 
向 ， 也 会 迅速 反映 在 眼 动 轨迹 上 。 

以 上 两 种 连接 假设 均 基于 语言 理解 视角 ,将 
口语 加 工 过 程 中 的 眼 动 注视 变化 看 做 是 语言 输入 
信息 与 视觉 信息 共同 作用 的 结果 。 这 两 个 假说 都 
将 语言 加 工 看 做 是 一 项 独立 的 任务 , 与 实验 过 程 
中 的 行为 任务 目标 无 关 。 然 而 ， 此 类 基于 语言 理 
解 视角 的 连接 假设 未 涉及 完成 任务 所 需要 的 动作 
本 身 对 语言 指 代 加 工 的 影响 (Chambers et al., 2004), 
同时 也 未 考虑 到 在 视觉 搜寻 中 有 眼 动 本 身 就 和 行为 
任务 的 目标 紧密 相关 一 一 即 受 试 者 会 更 多 地 注视 


物体 、 动 作对 应 ,基于 视觉 场景 信息 修正 之 前 形 
成 的 语句 理解 ， 形成 新 的 预测 (Knoeferle & 
Crocker, 2006, 2007; Pyykkönen-Klauck & Crocker, 
2016)。 值 得 注意 的 是 ， 这 三 个 进程 虽然 在 协同 互 
动 理 论 中 依次 呈现 ,但 该 理论 并 不 排斥 三 个 进程 
在 加 工时 间 上 有 交 才 或 者 同时 发 生 的 可 能 性 。 协 
同 互动 理论 凸显 了 视觉 场景 信息 对 于 口语 理解 的 
重要 性 ; 而 且 尽 管 当 视 觉 场 景 消 失 后 ， 这 些 情 景 
在 工作 记忆 中 会 逐渐 消退 , 但 关于 情景 的 记忆 仍 
然 对 后 续 句 子 加 工具 有 显著 的 影响 (Knoeferle & 


与 自己 行为 目标 相关 的 物体 。 为 了 更 好 地 解释 语 
言 加 工 与 眼 动 的 关系 ，Salverda 等 人 (2011) 提 出 了 
基于 目标 的 连接 假设 理论 (goal-based linking 
hypothesis), 将 “任务 目标 ”这 一 新 维度 纳入 眼 动 
连接 假设 。 不 同 于 基于 语言 理解 视角 的 连接 假设 ， 
基于 目标 的 连接 假设 理论 认为 不 仅 语 境 、 语 言 输 
人 等 可 以 对 语言 加 工 形 成 约束 (constraint)， 任 务 
目标 本 身 也 可 以 作为 约束 一 一 与 执行 任务 目标 直 
接 相 关 的 视觉 物体 , 会 吸引 更 多 了 眼 动 注视 ; 而 与 
目标 执行 无 关 的 物体 则 不 会 。 该 连接 假设 理论 认 
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为 ， 视 觉 情 境 下 的 口语 加 工 过 程 首 先 包 含 了 一 项 
基础 任务 ， 就 是 把 语言 输入 信息 与 视觉 场景 中 可 
供 选择 的 物体 对 应 ， 而 眼 动 注视 服务 于 这 一 任务 
目标 ,， 用 于 锁定 可 能 的 指 代 物体 ; 不 符合 可 供 性 
(affordance) 的 物体 则 很 少 被 注视 。 例 如 ,在 听 到 put 
the cube into the can 这 一 指令 时 , 只 有 尺寸 大 小 能 
放 得 下 立方 体 (cube) 的 饮 子 (can) 才 会 成 为 被 注视 的 
目标 容器 (Chambers et al., 2004), Salverda 等 人 
(2011) 认 为 ， 额 外 的 任务 如 点 击 物体 、 移 动物 体 等 ， 
共同 构成 了 口语 加 工 任务 中 的 任务 目标 结构 ， 并 
且 影响 了 眼 动 注视 。 例 如 ， 当 受 试 者 带 着 判定 句子 
正 误 任务 听 句 子 时 , 会 比 无 判定 任务 情况 下 听 同 样 
的 句子 展现 出 更 早 、 更 显著 的 预测 性 注视 (Altmann 
& Kamide，1999)， 在 时 间 进 程 上 更 快 地 锁定 指 代 
目标 。 基 于 目标 的 连接 假设 为 细 化 、 层 级 化 语言 
加 工 过 程 中 的 任务 目标 结构 提出 了 新 的 要 求 。 
利用 眼 动 视觉 情境 范式 进行 的 口语 加 工 研究 
以 连接 假设 为 基本 前 提 ， 根据 利用 视觉 信息 的 情 
况 ， 可 以 分 为 两 个 主要 研究 方向 。 第 一 类 研究 将 
视觉 场景 作为 呈现 物体 的 布景 ， 心 理 表 征 中 对 特 
定 指 代 对 象 的 注意 被 投射 在 视觉 场景 中 ， 听 者 据 
此 形成 对 指 代 物 体 的 注视 ; 而 其 注视 布景 上 的 物 
体 所 形成 的 眼 动 轨迹 ,揭示 了 不 同 的 语言 成 分 如 
何 被 实时 加 工 (例如 : Cooper, 1974; Cozijn et al., 
2011; Kaiser, 2016)。 第 二 类 研究 则 将 视觉 信息 也 
作为 一 种 语 境 约 束 ， 主 要 探索 视觉 环境 中 的 信息 
(如 : 候选 物体 个 数 、 物 体 大 小 对 比 、 所 描绘 的 事件 
动作 等 ) 本 身 对 语言 加 工 产生 的 影响 (例如 : Chambers 
et al., 2002; Knoeferle et al., 2005; Tanenhaus et al., 
1995)。 这 两 类 研究 采用 的 任务 类 似 , 但 是 在 连接 


式 呈 现 的 语言 指令 和 以 视觉 刺激 形式 出 现 的 物体 
(在 真实 世界 中 或 者 电脑 屏幕 上 )。 受 试 者 在 理解 口 
语 指令 的 同时 ,在 视觉 物体 上 注视 点 的 位 置 被 眼 
动 仪 实时 记录 并 用 于 后 续 分 析 ( 见 图 1)。 视觉 刺激 
图 片 一 般 会 先 于 语言 指令 出 现 , 并 有 一 定 的 预 视 
时 间 ; 语言 指令 以 相对 固定 的 播放 速度 呈现 。 前 
人 研究 中 发 现 ,， 图 片 复杂 度 、 预 视 时 长 、 语 言 指 
令 播放 速度 、 任 务 指令 类 型 (是 否 明 确 告知 受 试 者 
需要 预测 目标 物 ) 等 因素 都 会 对 眼 动 结果 产生 一 
定 的 影响 (Huettig & Guerra, 2019; Ferreira et al., 
2013)。 


图 1 视觉 情境 范式 实验 呈现 示例 


视觉 情境 范式 主要 包括 两 种 不 同 的 实验 任务 : 
一 是 主动 任务 (基于 动作 的 实验 任务 )， 即 要 求 受 
试 者 对 语言 指令 做 出 行为 上 的 反应 (如 : 获取 、 挪 
动 、 点 击 物 体 ; 见 Hanna & Tanenhaus, 2004; 
Tanenhaus et al., 1995); 二 是 被 动 任 务 ( 听 -看 任 
务 )， 即 受 试 者 仅 需要 听 语 言 指 令 、 看 图 片 或 者 情 


假设 的 理论 层面 ， 第 一 类 研究 强调 了 理解 视觉 场 
景 信息 与 理解 口语 输入 信息 这 两 个 过 程 的 共 时 性 
和 不 可 分 割 性 ; 第 二 类 研究 则 将 视觉 场景 信息 加 
工作 为 一 个 相对 独立 的 过 程 ， 强 调 视 觉 场 景 本 身 
在 口语 加 工 过 程 中 的 作用 。 而 眼 动 加 工 领域 最 新 
的 趋势 是 开始 关注 任务 目标 对 语言 加 工 的 潜在 作 
用 。 尽 管 纳 入 了 目标 维度 的 连接 假设 已 经 完成 了 
初步 的 理论 建构 , 但 目前 针对 不 同 任务 目标 下 加 
工效 应 对 比 的 研究 仍然 是 空白 。 


2 视觉 情境 范式 的 特点 


21 ”范式 与 任务 
典型 的 视觉 情境 范式 实验 通常 包含 以 口语 形 


S 


景 , 不 需要 在 行为 上 做 出 反应 (Altmann & Kamide, 
1999; Knoeferle et al., 2005)。 关 于 两 种 任务 的 区 别 ， 
Salverda 等 人 (2011) 指 出 在 主动 任务 型 视觉 情境 
范式 实验 中 , 获取、 挪动 、 点 击 物体 之 前 受 试 者 
会 将 大 量 的 注视 投向 目标 物体 ; 而 被 动 任务 型 实 
验 不 存在 这 样 的 注视 模式 一 一 此 因素 可 能 会 导致 
两 种 实验 任务 下 眼 动 模式 的 差异 。Pyykkonen- 
Klauck 和 Crocker (2016) 综 述 对 比 了 采用 两 种 任 
务 类 型 的 眼 动 实验 结果 ,认为 主动 任务 中 一 些 语 
言 效应 (如 : 词 频 效应 ) 在 眼 动 指标 上 表现 得 更 为 
人 敏感， 受 试 者 能 更 快 地 锁定 目标 物体 ， 显 示 出 更 
迅速 实时 的 语言 理解 过 程 。 而 听 句 子 看 图 的 被 动 
任务 型 视觉 情境 范式 实验 ， 因 不 需要 受 试 者 完成 
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额外 任务 ， 相 对 而 言 具 有 更 好 的 生态 效 度 (Huettig 
et al., 2011a); 而 且 可 以 被 用 于 检验 哪些 口语 加 工 
效应 是 在 语言 与 视觉 交互 中 普遍 存在 的 ,哪些 仅 
在 特殊 的 实验 任务 下 才 存 在 (Huettig et al., 2011b)。 
视觉 情境 范式 有 两 个 主要 的 变 体 拼 词 呈 
现 范 式 (printed-word paradigm, Huettig & McQueen, 
2007) 与 空 屏 呈现 范式 (blank screen paradigm, 
Altmann, 2004)。 拼 词 呈 现 范式 中 ,视觉 刺激 图 片 
被 替换 为 出 现在 屏幕 上 的 词语 。 受 试 者 会 听 到 与 
该 词 相关 的 语音 输入 ,同时 其 在 每 个 字母 上 的 眼 
动 注视 轨迹 被 记录 下 来 用 于 分 析 。 拼 词 呈 现 范式 
可 以 用 于 检验 语音 的 识别 过 程 、 研 究 正 字 法 信息 
如 何 被 实时 加 工 等 问题 。 空 屏 呈 现 范式 主要 用 于 


着 时 间 发 展 而 变化 的 曲线 模式 。 
2.3 ”利用 时 间 维 度 信息 进行 数据 分 析 

时 间 上 的 精确 性 是 视觉 情境 范式 数据 的 最 重 
要 特点 ， 如 何 利用 好 时 间 维 度 信息 是 该 范式 数据 
分 析 的 关键 。 根 据 利用 时 间 信 息 的 方式 ,可 将 现 
有 的 数据 分 析 方 法 归 为 三 类 : (1) 指 定时 间 兴 趣 区 
内 注视 比例 均值 对 比 : (2) 效 应 出 现 、 持 续 的 时 间 
进程 分 析 ; (3) 效 应 随时 间 变 化 的 曲线 模式 分 析 。 
为 了 更 好 地 阐释 三 类 方法 的 应 用 场景 与 分 析 逻 辑 ， 
本 文选 用 了 Allopenna 等 人 (1998) 研 究 中 的 实验 物 
体 示意 图 (图 2) 和 注视 比例 数据 图 (图 3) 作 为 示例 
(该 研究 的 详细 讨论 见 第 3.1 节 )。 

第 一 类 分 析 方 法 是 分 析 视 觉 情境 范式 数据 最 


揭示 短期 记忆 在 实时 语言 加 工 中 的 作用 。 在 视觉 
刺激 图 片 呈现 几 秒 后 ,呈现 空白 屏幕 (一 般 1 BD), 
然后 播放 语音 指令 。 采 用 该 范式 的 实验 可 以 证 明 ， 
即使 在 视觉 刺激 图 片 中 的 物体 消失 之 后 ， 受 试 者 
听 到 语言 指令 仍然 会 看 向 相关 物体 原来 所 在 的 位 
置 (Knoeferle & Crocker, 2007)。 空 屏 呈 现 范式 为 
心智 表征 提供 了 依据 : 心智 表征 形成 后 ， 可 以 不 
依赖 视觉 刺激 ,而 暂时 存储 在 短期 记忆 中 ,参与 
后 续 的 语言 加 工 。 
2.2 ”数据 与 变量 

视觉 情境 范式 实验 数据 分 析 中 的 常用 因 变 量 
为 注视 和 了 眼 跳 。 其 中 最 常用 的 注视 指标 是 注视 比 
例 (fixation proportion)， 即 在 指定 时 间 窗 口内 落 入 
某 一 兴趣 区 的 注视 点 在 所 有 试 次 中 的 比例 。 眼 跳 
(saccade) 数 据 常 用 的 指标 包括 眼 跳 比例 ( 即 所 有 试 
次 中 看 向 目标 兴趣 区 的 眼 跳 比例 ) 和 了 眼 跳 反 应 时 
( 即 当 目标 词 刺 激 出 现 后 ,看 向 目标 兴趣 区 所 需要 
的 眼 跳 时 长 )。 数 据 中 的 自 变 量 可 以 是 实验 设计 的 
组 内 变量 (如 : 实验 条 件 与 控制 条 件 、 靶 义 句 与 非 
歧义 句 等 ), 也 可 以 是 组 间 变 量 ( 如 : 不 同 语言 背 
景 组 、 年 龄 组 等 )。 

视觉 情境 范式 的 优势 在 于 所 产 出 的 数据 具有 
高 度 的 时 间 精 确 性 ， 现 有 的 科研 用 眼 动 仪 可 以 达 
到 1000 Hz 的 取样 率 ， 即 每 一 毫秒 捕捉 一 次 眼 动 
位 置 ， 可 以 提供 准确 的 时 间 进 程 信息 。 以 兴趣 区 
注视 比例 这 一 数据 指标 为 例 ， 研 究 者 不 仅 可 以 跨 
组 对 比 在 某 一 时 间 窗 口内 不 同 条 件 组 下 注视 比例 
的 均值 ， 以 确定 口语 加 工 中 的 某 一 效应 ; 更 重要 
的 是 可 以 探究 效应 出 现 的 时 间 ( 即 注视 比例 在 不 
同 条 件 下 开始 产生 显著 区 别 的 时 间 ) 以 及 效应 随 


常用 、 最 直观 的 方法 一 一 将 指定 时 间 兴 趣 区 内 注 
视 比 例 均值 进行 对 比 ， 如 : 对 比 从 目标 词 beaker“ 
杯 ” 开 始 呈 现 到 目标 词 结束 的 约 375 ms 内 听 者 对 
图 2 中 几 个 物体 的 注视 比例 。 这 一 分 析 方 法 将 注 
视 比 例 、 时 长 或 者 眼 跳 指标 作为 因 变 量 , 组 内 和 组 
间 变 量 作 为 自 变量 , 采用 t-test、ANOVA、 混 合 效 
应 模型 (linear mixed-effects model) 等 统计 手段 对 
比 不 同 物体 之 间或 者 不 同 条 件 组 之 间 注 视 比 例 的 
差别 。 相 比 于 t-test 和 ANOVA, 混合 效应 模型 是 
目前 应 用 最 广 的 分 析 方法 ， 它 可 以 将 受 试 者 之 间 


图 2 视觉 情境 范式 实验 视觉 刺激 示意 图 ,语音 指令 为 : 
beaker “烧杯 ”。4 个 用 于 测量 的 物体 分 别 为 : £- 
目标 指 代 物 体 (referenb beaker “烧杯 ”、 右 -语音 


同 群 竞争 项 (cohorb beetle “甲虫 "、 上 -韵律 竞争 
项 (rhyme) speaker “H FE t”, F-X 


(unrelated) carriage “婴儿 车 ”。 资 料 来 源 : 
Allopenna 等 人 (1998), 已 获 使 用 许可 。 
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图 3 使 用 视觉 情境 范式 下 词汇 识别 任务 所 得 数据 示意 
图 。 横 轴 : 从 目标 词 开 始 旦 现 后 的 1000 ms 时 间 
Ah, 纵 轴 : 注视 比例 。4 条 曲线 分 别 代表 看 向 目标 
指 代 物体 (referent) beaker “烧杯 ”、 语 音 同 群 竞争 
Ii (cohort) beetle “Fi Hu”. F se F Mi (rhyme) 
speaker “扬声器 ”无关 项 (unrelated) carriage “ 婴 
儿 车 ”的 注视 比例 。 资 料 来 源 : Allopenna 等 人 
(1998), 已 获 使 用 许可 。 


以 及 试 次 之 间 的 差异 作为 随机 变量 纳入 模型 ， 实 
现 对 效应 更 准确 的 模拟 与 测试 (应 用 示例 : Gardner 
et al., 2021; Griiter et al., 2020)。 需要 注意 的 是 ， 此 
类 统计 方法 通常 要 求 数据 符合 正 态 分 布 ， 而 注视 
比例 的 阔 值 范围 在 0 到 1 之 间 , 一 般 需 要 事先 进 
行 对 数 (log) 转 换 或 者 逻辑 (logit) 转 换 (Ito & 
Knoeferle，2022)。 分 析 指 定时 间 兴 趣 区 内 注视 比 
例 均值 是 最 简便 的 视觉 情境 范式 数据 分 析 方 法 ， 
适用 于 大 部 分 实验 设计 。 其 主要 劣势 在 于 人 为 设 
定 的 时 间 窗 口 降 低 了 数据 的 时 间 精 度 ， 无 法 很 好 
地 捕捉 注视 比例 随 着 时 间 变 化 的 趋势 ; 补偿 方法 
可 以 是 将 不 同时 间 兴 趣 区 作为 自 变 量 加 入 分 析 模 
型 ， 检 验 时 间 兴 趣 区 这 一 变量 本 身 是 否 显著 影响 
注视 比例 。 

第 二 类 方法 是 对 效应 出 现 、 持 续 的 时 间 进 程 
进行 分 析 。 此 类 方法 充分 利用 了 视觉 情境 范式 精 
确 的 时 间 进 程 信息 ， 可 用 于 探究 某 一 口语 加 工效 
应 出 现 的 确切 时 间 。 其 中 ， 分 又 点 分 析 (divergent 
point analysis) 将 潜在 效应 出 现 的 时 间 段 再 细 分 为 
若干 小 的 时 间 窗 口 (如 20 ms), 在 每 一 个 小 的 时 间 
窗口 内 对 比 检验 两 个 条 件 组 的 注视 比例 是 否 存在 


显著 区 别 ， 从 而 找 出 两 组 注视 比例 曲线 最 早 开始 
出 现 显著 分 又 的 时 间 点 。 例 如 : 图 3 中 目标 指 代 
物体 beaker “烧杯 ”的 注视 比例 曲线 与 语音 同 群 竞 
FI peetle“ 甲 虫 ” 的 注视 比例 曲线 分 叉 点 大 约 在 
400 ms 左右 ， 晚 于 目标 指 代 物体 与 韵律 竞争 项 
speaker “扬声器 ”的 注视 比例 分 又 点 ， 而 通过 分 又 
点 分 析 可 以 统计 计算 出 不 同 曲线 之 间 开 始 显著 分 
叉 的 具体 时 间 点 。 

简单 的 分 又 点 分 析 只 能 界定 出 效应 开始 的 时 
间 点 (两 个 条 件 下 变化 曲线 的 分 叉 点 )， 并 不 能 检 
验 分 义 点 在 时 间 上 的 变化 区 间 , 也 不 能 跨 条 件 组 
比较 两 个 分 又 点 是 否 存 在 统计 学 意义 上 的 显著 不 
同 。 而 基于 自助 抽样 检验 (bootstrapping) 的 进 阶 分 
叉 点 分 析 法 ， 则 可 以 为 每 一 个 分 义 时 间 点 提供 置 
信 区 间 ， 从 而 实现 跨 条 件 组 对 比 (Stone et al., 2021; 
应 用 示例 : Corps et al., 2021)。 进 阶 的 分 又 点 分 析 
法 可 为 对 比 研究 不 同 群体 语言 实时 加 工 的 时 间 进 
程 提供 有 效 的 分 析 工 具 ， 例 如 ， 一 语 者 与 二 语 者 
在 语言 加 工 的 某 一 效应 上 (如 : 预测 加 工 ) 可 能 3 
不 存在 效应 量 上 的 差别 , 但 是 两 类 被 试 者 在 效应 
开始 的 时 间 上 可 能 存在 差异 (Kaan & Griiter, 2021), 
采用 这 种 分 析 方 法 就 可 以 有 效 检验 二 语 者 预测 加 工 
开始 的 时 间 是 否 会 显著 地 滞后 于 一 语 者 。 除 了 分 又 
点 分 析 法 ， 基 于 频率 艇 的 置换 检验 法 (cluster-based 
permutation analysis; Barr et al., 2014) 和 自助 抽样 
检验 时 间 序 列 差别 法 (bootstrapped differences of 
timeseries; Seedorff et al., 2018), 均 可 以 用 于 界定 
两 个 条 件 组 数据 出 现 显 著 差 别 的 时 间 ( 详 见 眼 动 
数据 分 析 方 法 综述 : Ito & Knoeferle, 2022)。 但 此 
类 分 析 方 法 均 无 法 对 不 同 条 件 下 效应 随时 间 变 化 
的 趋势 进行 分 析 ， 要 回答 此 类 问题 需要 借助 第 三 
类 方法 分 析 变 化 曲线 。 

第 三 类 方法 主要 针对 视觉 情境 范式 中 效应 随 
时 间 变 化 的 曲线 模式 进行 分 析 。 其 中 , 生长 曲线 
分 析 法 (growth-curve analysis) 将 不 同 条 件 组 下 关 
键 兴 趣 区 的 注视 比例 随 着 时 间 变 化 的 曲线 进行 模 
拟 、 分 析 , 检验 不 同 条 件 组 下 注视 比例 曲线 变化 
的 模式 是 否 有 所 不 同 ， 进 而 检 证 效应 是 否 随 着 时 
间 发 展 有 所 变化 (Mirman, 2014; Mirman et al., 
2008)。 不 同 于 第 一 类 分 析 法 ， 生 长 曲线 分 析 法 不 
仅 包括 了 以 时 间作 为 变量 的 线性 模型 ， 还 可 以 在 
模型 中 加 入 时 间 变 量 的 二 次 方 、 三 次 方 ， 以 模拟 
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注视 比例 随 着 时 间 出 现 曲线 变化 的 模式 '， 如 在 
图 3 中 对 语音 同 群 竞争 项 peete“ 甲 虫 ” 的 注视 比例 
出 现 了 呈 抛 物 线 状 先 升 后 降 的 趋势 ， 且 斜率 不 同 
于 韵律 竞争 项 speaker 扬 声 器 ”， 这 一 模式 就 可 以 
采用 包含 二 次 方 时 间 变 量 的 生长 曲线 模型 进行 分 
析 。 在 口语 加 工 过 程 中 , 注视 随 着 时 间 的 变化 趋 
势 常 常 并 非 线 性 上 升 或 者 下 降 ， 对 变化 曲线 的 模 
拟 和 对 比 能 够 更 精确 地 分 析 语 言 理解 的 时 间 发 展 
进程 (应 用 示例 : Henry et al., 2022; Koring et al., 
2012; Wei et al., 2019)。 需 要 注意 的 是 ， 生长 曲线 
分 析 法 存在 数据 自动 相关 性 问题 (autocorrelation)， 
即 相 邻 的 两 个 时 间 窗 口 在 注视 位 置 上 存在 高 度 相 
关 性 ， 增 加 了 出 现 统计 学 一 型 错误 ( 假 阳 性 ) 的 几 
率 (Huang & Snedeker, 2020)， 因 此 常 需 要 与 第 一 
类 和 第 二 类 的 分 析 方法 相 结合 ,共同 验证 效应 。 
广义 加 性 混合 模型 (generalized additive mixed 
model) 分 析 也 可 以 用 于 对 非 线 性 的 数据 曲线 进行 
模拟 ,通过 薄板 样 条 插值 (thin plate regression 
splines) 更 灵活 地 模拟 变化 曲线 ,并 且 减 少 统计 学 
上 的 自动 相关 性 ,一 定 程 度 上 弥补 了 生长 曲线 分 
析 法 的 劣势 (Porretta et al., 2018)。 


3 视觉 情境 范式 与 口语 加 工 的 时 间 进 程 


学 界 早年 关于 语言 加 工时 间 进 程 的 争论 主要 
集中 在 加 工 即 时 性 问题 上 。 早 期 实验 主要 采用 词 
汇 再 认 、 线 索 回 忆 、 自 定 步 速 阅读 等 任务 ， 得 到 
的 证 据 倾 向 于 支持 延迟 整合 加 工 (如 : Garnham et al., 
1996; Stewart et al., 2000)， 即 语言 使 用 者 加 工 语 
言 会 延迟 到 句子 末尾 再 进行 整合 (delayed-integration 
interpretation; Millis & Just, 1994)。 然 而 ， 随 着 眼 
动 、 脑 电 事件 相关 电位 (ERP) 等 测量 方法 的 推广 ， 
精确 测量 阅读 时 间 、 脑 电信 号 反应 成 为 可 能 ， 越 
来 越 多 的 证 据 支 持 语 言 加 工 的 即时 性 ， 即 语言 使 
用 者 会 随 着 语言 的 输入 即刻 处 理 遇 到 的 信息 
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"ey EST] SALEM K RERAN: Y= Bo + Bix 
Time), Bo 为 截 距 ， 表 示 当 时 间 为 零 时 ( 即 开 始 时 ) 注 视 比 例 
(Y) 的 数值 ; 斜率 Bi 表示 随 着 时 间 的 推移 ,注视 比例 的 变化 
趋势 ; 如 将 时 间 的 二 次 方 (Timne) 、 三 次 方 (Time ) 加 入 模型 中 ， 
即 可 以 允许 注视 比例 随 着 时 间 推 移 呈 抛物 线 变化 
可 以 模拟 有 一 次 趋势 方向 变化 (如 先 升 后 降 , 或 先 降 后 升 ) 
的 曲线 ， 而 Time 可 以 模拟 含 两 次 方向 变化 的 曲线 。 
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(incremental interpretation; Traxler et al., 1997; 
Cozijn et al., 2011; Koornneef & van Berkum, 
2006)。 对 于 视觉 情境 下 的 眼 动 测量 ， 尽 管 从 接收 
到 听觉 语言 信号 刺激 到 做 出 眼 动 反应 需要 大 约 
200 ms(Matin et al., 1993; Saslow, 1967), 使 用 视 
觉 情境 范式 的 大 量 口 语 实验 中 仍 发 现 了 在 测试 词 
开始 呈现 后 、 下 一 词 未 开始 之 前 眼 动 注 视 投 向 目 
标 物 的 效应 ， 说 明 语 言 使 用 者 对 口语 中 信息 的 处 
理 是 即刻 发 生 的 ( 详 见 3.1~3.5 小 节 )。 

在 即时 性 加 工 被 广泛 认可 的 基础 之 上 ,近年 
来 语言 加 工时 间 进 程 的 讨论 主要 聚焦 于 语言 使 用 
者 何 时 利用 语 境 信 息 来 理解 语言 。 语 言 使 用 者 可 
能 在 测试 词 出 现 的 同时 ， 即 时 地 结合 测试 词 的 语 
义 与 前 文 语 境 进行 加 工 ; 也 可 能 在 测试 词 出 现 之 
前 、 加 工 语 境 信息 的 过 程 中 ， 对 测试 词 的 语音 、 
语义 甚至 所 处 的 句法 结构 提前 进行 预测 性 加 工 
(expectation-based account; Levy, 2008)。 在 对 预测 
效应 的 检测 上， 视觉 情境 范式 相对 于 阅读 范式 、 
ERP 测量 等 方法 具有 明显 优势 (Huettig & Guerra, 
2019)。 大 部 分 采用 后 者 的 研究 只 能 在 测试 词 出 现 
的 位 置 捕捉 到 由 测试 词语 义 与 语 境 信息 一 致 性 所 
产生 的 效应 ; 而 视觉 情境 范式 可 以 在 关键 词 出 现 
之 前 , 更 早 地 检验 到 语 境 对 受 试 者 在 视觉 场景 中 
注视 方式 的 影响 ,为 口语 的 预测 性 加 工 提供 了 关 
键 性 证 据 。 下文 将 重点 分 析 视 觉 情境 范式 在 语音 、 
语义 、 句 法 、 语 篇 与 语 用 等 不 同 层面 如 何 回答 语 
言 加 工 的 时 间 进 程 问 题 。 需 要 说 明 的 是 , 不 同 层 
面 的 信息 在 口语 加 工 中 并 非 独立 ， 而 是 会 相互 影 
响 ( 见 综述 : Kuperberg & Jaeger, 2016); 而 本 文 出 
于 利于 分 类 总 结 的 考虑 ,将 各 个 层面 单列 综述 。 
3.1 词汇 识别 与 语音 预测 

视觉 情境 范式 中 ， 听 者 听 到 一 个 词 就 会 在 视 
觉 范畴 内 寻找 指 代 的 物体 。 基 于 这 一 特点 ， 视 觉 
情境 范式 可 以 用 来 检验 词汇 的 识别 过 程 ， 并 且 
探究 听 者 如 何 利 用 已 有 信息 预测 语音 形式 。 
Allopenna 等 人 (1998) 利 用 该 范式 检验 了 在 口语 词 
汇 的 语音 识别 过 程 中 , 语音 输入 与 词汇 表征 的 匹 
配 过 程 是 否 是 渐进 发 生 的 。 如 果 这 个 匹配 过 程 在 
时 间 上 是 渐进 的 ,那么 可 以 预测 目标 指 代 物体 
peaker“ 烧 杯 ” 的 语音 同 群 竞争 项 beetle “HR”, 
ZHE beaker 的 韵律 竞争 项 speaker “扬声器 ”有 更 
强 的 干扰 效应 ( 见 图 2)， 因 为 语音 上 beetle 与 
beaker 在 词语 的 开头 位 置 有 重合 ,而 speaker 与 
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beaker I) HE RAE FE JAI), Allopenna 等 人 的 视觉 
情境 范式 眼 动 实验 结果 验证 了 这 一 假设 : 注视 目 
标 物 体 “ 烧 杯 ” 的 比例 和 注视 “甲虫 ”的 比例 在 语音 
加 工 的 早期 都 出 现 了 上 升 ( 见 图 3)， 而 对 “扬声器 ” 
这 一 物体 的 注视 比例 则 是 在 词 加 工 的 较 晚 时 间 才 
出 现 上 升 ， 而 且 注视 比例 上 升 的 幅度 也 相对 比较 
小 。 视 觉 情 境 范 式 提供 的 眼 动 注视 比例 数据 有 效 
揭示 了 词汇 识别 中 语音 输入 和 词汇 表征 的 匹配 过 程 。 

在 语言 使 用 者 能 否 通过 语 境 信息 预测 即将 出 
现 词语 的 语音 信息 这 个 问题 上 , 已 有 的 ERP 研究 
结果 存在 很 大 分 歧 ， 并 未 能 得 到 稳定 可 复制 的 语 
音 预 测 效 应 (DeLong et al., 2005; Nieuwland et al., 
2018)， 而 视觉 情境 范式 为 探讨 语音 预测 问题 提供 
了 有 力 的 证 据 。Ito 等 人 (2018) 采 用 视觉 情境 范式 
的 眼 动 实验 ,发 现在 高 度 可 预测 的 语 境 下 (例如 : 
The tourists expected rain when the sun went behind 
the...)， 听 者 不 仅 会 预测 性 地 注视 目标 物体 (cloud 
“ 云 ”), 还 会 更 多 地 注视 目标 物体 的 语音 苋 争 项 
(与 cloud 共享 开头 音节 的 clown ShA”), 这 一 发 
现 证 实 了 语音 形式 预测 的 存在 。 更 重要 的 是 , 在 
视觉 情境 范式 下 这 一 预测 效应 在 目标 词 出 现 前 的 
500 ms 就 已 经 出 现 ， 充 分 证 明 语 言 加 工 中 对 语音 
形式 的 预测 是 主动 的 (proactive)， 相 比 于 一 些 其 
他 范式 仅 在 目标 词 位 置 发 现 整合 效应 的 结果 ， 视 
觉 情境 范式 为 语言 预测 提供 了 更 为 直接 的 证 据 。 
此 外 ,视觉 情境 范式 还 为 研究 语音 预测 机 制 提供 
了 实证 依据 : 语音 预测 与 语义 预测 一 样 ， 其 背后 
机 制 都 是 基于 关联 一 一 通过 加 工 语 境 , 语言 使 用 
者 在 心理 词汇 中 激活 了 相应 的 语义 和 语音 形式 ， 
从 而 对 即将 出 现 的 词语 形成 预期 (Kukona，2020; 
语音 预测 与 语义 预测 对 比 见 : Karimi et al., 2019). 
值得 注意 的 是 , 使 用 西方 语言 的 语音 预测 研究 存 
在 一 个 无 法 避免 的 问题 , 即 目 标 词 (如 cloud) GAL 
语音 竞争 项 (如 clown) 不 仅 在 语音 上 有 重合 ,在 正 
字 法 信息 上 也 存在 交 释 。Li 等 人 (2022) 使 用 语音 
与 正字 法 信息 相对 分 离 的 汉语 , 通过 视觉 情境 范 
式 实验 , 也 发 现 了 类 似 的 语音 形式 预测 ， 验 证 了 
语音 预测 的 普遍 性 。 
3.2 ”句法 加 工 的 解 歧 过 程 

视觉 情境 范式 对 于 句法 加 工时 间 进 程 研 究 的 
贡献 主要 在 两 个 方面 。 首 先 , 该 范式 可 以 用 于 分 
析 歧 义 句 的 解 歧 过 程 ， 如 花园 路 径 句 (garden-path 
sentences)。Tanenhaus 等 人 (1995) 首 次 采用 视觉 情 


境 范 式 探究 了 存在 结构 歧义 的 英文 句子 加 工 过 程 ， 
以 及 视觉 场景 对 句子 解 歧 的 影响 。 如 Put the apple 
on the towel in the box 在 in the box 出 现 前 存在 结 
构 歧 义 : on the towel 既 可 以 是 动作 put 的 方向 ,又 
可 以 是 the apple 的 地 点 限定 语 。 采 用 视觉 情境 范 
式 眼 动 追 踪 的 实验 方法 , Tanenhaus 等 人 发 现在 视 
觉 场 景 中 只 有 一 个 苹果 的 时 候 ， 听 者 会 更 倾向 于 
把 on the towel 解读 为 动作 的 方向 ( 眼 动 注视 从 苹 
果 直 接 移 向 毛巾 ); 而 当 视 觉 场 景 中 有 两 个 苹果 时 ， 
听 者 则 更 倾向 于 将 其 解读 为 the apple 的 地 点 限定 
语 而 非 动 作 方 向 (在 锁定 毛巾 上 的 苹果 之 后 直接 
看 向 真正 的 目标 地 点 the box 箱子 )。 

其 次 , 视觉 情境 范式 为 句法 加 工 中 不 同 层面 
信息 何 时 被 加 工 这 一 问题 提供 了 新 的 证 据 。 早 其 
的 双 阶 段 理论 (two-stage accounb 认 为 在 句子 理解 
过 程 中 , 句法 结构 分 析 要 先 于 其 他 非 结 构 性 信息 
(包括 词汇 语义 、 世 界 知识 、 语 篇 等 ) 的 加 工 (initial 
syntactic analysis, Frazier, 1987); 基于 约束 的 语言 
加 工 理论 (constraint-based account) 则 认为 句子 加 
工 涉及 到 多 个 层面 信息 的 共同 限制 (Trueswell et al., 
1994), 这 些 限 制 会 在 句子 加 工 的 早期 就 对 句法 结 
构 分 析 产 生 影响 。 视 觉 情 境 范 式 实 验 研 究 支 持 了 
后 者 的 假说 。 如 : Snedeker 和 Trueswell (2004) 研 
究 了 具有 歧义 的 介词 短语 结构 (Choose the cow 
with the stick vs Tickle the pig with the fan). With 
the stick/fan 既 可 以 是 宾语 的 限定 成 分 又 可 以 是 
完成 动作 所 借助 的 工具 。 他 们 发 现 , 视觉 场景 中 
的 信息 (物体 的 个 数 )、 动 词 的 偏向 (偏向 限定 语 解 
读 的 动词 choose“ 选 择 ”vs 偏向 动作 工具 解读 的 
动词 tickle“ 找 ”) 都 会 在 句子 加 工 的 早期 对 歧义 句 
的 句法 结构 的 分 析 产 生 影响 ,体现 在 物体 个 数 、 
动词 偏向 不 同 的 情况 下 ， 听 者 会 看 向 不 同 的 目标 
对 象 。 此 外 , Chambers 等 人 (2002, 2004) 的 研究 还 
发 现 , 与 视觉 场景 中 物体 形态 、 大 小 、 特 质 相关 
的 世界 知识 信息 也 会 影响 句法 结构 的 分 析 ， 并 且 
这 些 影响 都 发 生 在 句子 加 工 的 最 开始 阶段 ,驳斥 
了 句法 结构 分 析 为 先 的 理论 性 假设 。 
3.3 ”语义 的 预测 性 加 工 

视觉 情境 范式 对 语义 加 工人 研究 的 一 大 贡献 是 ， 
揭示 了 语义 加 工 不 仅 是 即时 的 ,在 很 多 情况 下 甚 
至 是 具有 预测 性 的 (Altmann & Kamide, 1999; 
Kamide et al., 2003; 理论 综述 见 : Pickering & 
Gambi, 2018). Altmann 和 Kamide (1999) 最 早 使 用 
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视觉 情境 范式 ， 研 究 了 动词 - 论 元 整合 的 时 间 进 
fe: 与 无 关 动词 move“ 移 动 * 相 比 ， 听 者 在 听 到 
the boy will eat... 的 动词 eat “WZ” WY, 会 更 早 地 注 
视 到 视觉 场景 中 的 蛋糕 这 一 物体 上 。 这 说 明 动 词 
的 语义 信息 ( 即 eat“ 吃 ?需要 搭配 可 以 吃 的 论 元 ) 会 
帮助 听 者 预测 论 元 的 指 代 对 象 -Kamide 等 人 (2003) 
的 后 续 研 究 总 结 了 语义 加 工 的 主要 特征 : (1) 动 词 
与 主语 的 组 合共 同 促进 了 语义 预测 ,例如 主语 the 
man“ 男 人 ”与 动词 ride“ 骑 ”的 组 合 会 预测 高 可 能 
性 宾语 motorbike“ 摩 托 车 ”; (2) 除 了 动词 之 外 ， 附 
着 于 论 元 的 格 标记 也 会 激活 预测 加 工 ， 如 在 动词 
后 置 的 日 语 中 ,， 听 者 在 动词 还 未 出 现 之 前 也 可 以 
通过 格 标记 提前 预测 即将 出 现 的 论 元 指 代 对 象 。 

使 用 视觉 情境 范式 对 语义 加 工 的 研究 不 仅 限 
于 动词 - 论 元 结构 。Chow 和 Chen (2020) 使 用 该 范 
式 研 究 了 汉语 量词 信息 与 语 境 中 世界 知识 的 整合 
加 工 ， 发 现 汉 语 使 用 者 可 以 根据 语 境 中 的 世界 知 
识 ,， 在 加 工 的 早期 对 将 要 出 现 的 名 词 形成 预期 ， 
而 这 种 预期 会 受到 量词 的 影响 ,在 加 工 后 期 进 一 
步 修正 。 此 外 , Grüter 等 人 (2020) 对 一 语 者 和 二 语 
者 量词 加 工 的 研究 发 现 ,一 语 者 与 二 语 者 都 对 量 
词 包含 的 语法 搭配 信息 敏感 ， 并 且 会 利用 该 信息 


影响 的 研究 中 , Pyykkönen 和 Järvikivi (2010) 发 现 ， 
隐 含 因果 效应 在 动词 之 后 就 已 经 立刻 显现 ， 听 者 
听 到 动词 后 会 更 多 地 注视 动词 所 偏向 的 指 代 对 象 ， 
如 : 在 John frightened Bill because... P, z) F] 
frighten“ 惊 吓 ” 更 偏向 第 一 个 人 物 ， 所 以 当 听 者 听 
到 frightened 时 , 会 更 多 地 注视 John; 而 在 John 
feared Bill because... 中 ,动词 feared “AHM E 
前 向 第 二 个 人 物 ， 当 动词 出 现时 ， 听 者 更 多 注视 
Bi11。 这 一 发 现 证 明了 指 代 加 工 是 即时 发 生 的 ， 甚 
至 具有 预测 性 ， 而 非 延 迟 整合 ( 另 见 : Cozijn et al., 
2011)。 

视觉 情境 范式 也 为 连接 关系 在 实时 语言 理解 
中 的 建立 提供 了 丰富 的 实证 证 据 。Wei 等 人 (2019) 
采用 视觉 情境 范式 探究 了 主观 因果 关系 (论点 - 论 
据 ) 和 客观 因果 关系 (原因 -结果 ) 的 加 工 以 及 汉语 
连词 在 其 中 的 作用 。 研 究 发 现 ， 相 较 于 客观 因果 
关系 连词 “因而 ”， 当 听 者 听 到 标记 主观 因果 关系 
的 连词 “可 见 ” 时 ， 相 对 于 客观 因果 关系 连词 “ 因 
而 ”他 们 会 更 多 地 注视 视觉 场景 中 的 说 话 人 。 这 
表明 主观 与 客观 因果 关系 的 加 工 可 能 在 确认 、 追 
踪 说 话 人 的 过 程 上 有 所 不 同 ,而 且 追 踪 说 话 人 的 
过 程 是 随 着 主观 因果 连词 的 输入 而 即时 发 生 的 ， 


进行 预测 性 加 工 。 但 是 , 二 语 者 在 加 工 中 会 更 加 
依赖 语义 信息 (如 : 量词 “条 ”会 搭配 长 条 状 物 体 )， 


表现 为 当 视 觉 场景 中 出 现 不 符合 量词 语法 搭配 、 
但 符合 长 条 状语 义 的 干扰 物 时 ,二 语 者 会 更 多 地 
注视 干扰 物 。 


3.4” 语 篇 层面 加 工 
视觉 情境 范式 可 以 用 于 探究 语 篇 理解 的 两 个 
重要 议题 上 § 代 关系 与 连接 关系 ,首先 , 视觉 情 


实验 证 据 证 明了 语 篇 加 工 的 即时 性 。Mak 等 人 
(2017) 通 过 在 视觉 场景 中 提供 两 个 备 选 的 指 代 对 
象 ， 并 追踪 听 者 对 两 个 指 代 对 象 的 注视 轨迹 ， 探 
究 俄 语 的 两 个 连词 在 连接 关系 建立 中 的 作用 。 研 
究 发 现 ， 连 词 i“ 而 且 ”( 用 于 标记 延续 关系 ,连词 
前 后 两 个 从 名 的 主语 一 致 :和 连词 a“ 而 且 / 但 是 ” 
(用 于 标记 转变 关系 ,前 后 两 个 从 句 是 不 同 的 主语 ) 
可 以 帮助 单 语 儿 童 和 双语 儿童 提前 预测 第 二 个 从 


境 范 式 下 的 眼 动 追踪 可 以 有 效 检验 代词 与 先行 词 
之 间 指 代 关 系 的 建立 过 程 。 一 般 认 为 ， 当 听 者 听 
到 与 前 文 语 篇 有 共同 指 代 关系 的 代词 、 并 注视 某 
相关 物体 时 ， 可 以 说 明 此 物体 被 认为 是 潜在 的 目 
标 指 代 物 (Runner et al., 2003)。 基 于 这 一 机 制 ， 研 
究 者 利用 视觉 情境 范式 探讨 了 诸多 指 代 关系 加 工 
中 的 时 间 进 程 问题 。 例 如 , Arnold 等 人 (2000) 最 早 
发 现 性 别 线 索 和 指 代 对 象 被 提 及 的 顺序 都 对 指 代 
消解 有 即时 性 影响 : 听 者 可 以 在 加 工 早期 利用 不 
同性 的 语言 标记 形式 (如 : 英语 单数 第 三 人 称 he 
或 者 she) 锁 定 指 代 的 目标 ; 同时 ， 句 中 第 一 位 提 
及 的 人 物 (如 : svo 语序 句子 中 的 主语 ) 会 更 容易 
被 解读 为 指 代 对 象 。 在 针对 隐 含 因果 对 代词 消解 


向 的 主语 是 和 否 转变 印证 了 在 口语 语 篇 理解 中 存 
在 的 预测 性 加 工 现象 。 
3.5 ” 语 用 信息 的 提取 与 加 工 

语 用 隐 含 义 (pragmatic implicature) 何 时 被 加 
工 、 这 一 过 程 是 否 先 于 语义 分 析 是 语 用 学 领域 关 
注 的 重要 议题 。 字 面 义 先 行 假设 (iteral-first hypothesis; 
Huang & Snedeker, 2009, 2011) 认 为 对 等 级 含义 词 
字面 语义 (如 some “一 些 ” 的 语义 解读 应 为 : 一 些 - 
同时 可 以 是 全 部 ) 的 加 工 先 于 该 词 的 语 用 隐 含 义 
(一 些 - 但 并 非 全 部 ); Levinson (2000) 认 为 语 用 隐 
含义 是 默认 自动 加 工 的 ; 基于 约束 的 加 工 理论 则 
认为 语 用 隐 含 义 是 否 优先 激活 取决 于 是 否 具 有 充 
足 的 语 境 支 持 (Degen & Tanenhaus, 2015, 2016). 
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视觉 情境 范式 是 对 比 语义 和 语 用 信息 加 工时 
间 线 的 重要 实验 手段 。Huang 和 Snedeker (2011) 
的 视觉 情境 范式 眼 动 实验 发 现 ， 听 者 在 加 工 some 
“一 些 * 时 会 完 注视 与 some 语 义 解 读 ( 一 些 - 同 时 可 
以 是 全 部 ) 相 符 的 对 象 ， 而 利用 some“ 一 些 ” 的 语 
用 隐 含 义 (一 些 - 但 并 非 全 部 ) 来 消除 歧义 、 排 除 all 
“全 部 ”的 指 代 对 象 这 一 过 程 要 晚 于 some 的 语义 
加 工 ( 约 晚 800 ms), Degen 和 Tanenhaus (2016) 的 
研究 则 发 现 , 语 用 隐 含 义 加 工 延迟 的 现象 仅仅 出 
现在 当 数 字 词 也 作为 指令 出 现 的 情况 下 ; 而 当 数 
字 词 不 存在 时 ,some 的 语 用 隐 含 义 加 工 并 不 会 晚 
于 字面 语义 含义 的 加 工 。Gardner 等 人 (2021) 改 进 
了 Huang 和 Snedeker (2011) 实 验 中 的 视觉 物体 个 
数 使 其 更 加 符合 some 的 概念 ， 他 们 发 现 当 有 足够 
的 语 境 支持 时 , 语 用 隐 含 义 的 加 工 是 迅速 即时 的 ， 
即 听 者 可 以 运用 some 的 语 用 隐 舍 义 快速 锁定 目 
标 对 象 。 此 外 ,语言 使 用 者 对 语 用 信息 的 加 工 还 
很 大 程度 受到 说 话 人 可 信和 度 的 影响 面 对 可 信 
度 高 的 说 话 人 ， 受 试 者 可 以 较 早 地 利用 等 级 形容 
词 的 语 用 含义 锁定 目标 物体 ， 而 面 对 可 信和 度 低 的 
说 话 人 ， 则 未 出 现 早期 的 语 用 加 工效 应 (Gardner 
et al., 2021)。 


4 ”视觉 情境 范式 的 主要 贡献 、 局 限 性 与 
研究 展望 


眼 动 视觉 情境 范式 为 研究 语言 理解 提供 了 两 
项 重要 信息 : 一 是 视觉 维度 的 注视 指标 ; 二 是 精 
确 的 时 间 测 量 。 前 者 为 心理 语言 学 、 认 知心 理学 
等 领域 的 实验 设计 提供 了 丰富 的 可 能 性 ; 而 精确 
的 时 间 测 量 ， 为 语音 、 词 汇 、 名 法、 语义 、 语 篇 、 
语 用 等 各 个 层面 的 口语 加 工 提 供 了 准确 的 时 间 进 
程 信息 , 极 大 地 拓展 了 语言 理解 的 相关 理论 。 两 
者 结合 ， 可 以 有 效 反映 在 接收 到 口语 信息 输入 时 ， 
听 者 在 视觉 场景 中 的 注视 位 置 如 何 随 着 时 间 变 化 ， 
进而 为 语言 理解 中 的 一 项 重要 议题 一 一 口语 加 工 
的 时 间 进 程 提供 了 直接 证 据 。 视 觉 情境 范式 的 实 
验 研究 通过 分 析 高 时 间 敏 感性 的 眼 动 测 量 数据 ， 
发 现 语 言 各 个 层面 的 加 工 都 呈现 出 即时 性 其 至 预 
测 性 的 特点 ,这 与 一 些 早期 研究 中 语言 延 时 整合 
的 发 现 不 同 , 说 明 语言 加 工时 间 进 程 的 研究 结果 
与 所 采用 的 方法 密 不 可 分 。 此 外 , 视觉 情境 范式 
主要 依赖 听力 任务 , 并 不 需要 受 试 者 具有 完整 的 
识字 阅读 能 力 ， 可 以 用 来 考察 低龄 儿童 、 二 语 学 


习 者 、 特 殊 语言 障碍 人 群 的 语言 加 工 过 程 (研究 示 
例 见 : Canseco-Gonzalez et al., 2010; McMurray et al., 
2010; Weber & Cutler, 2004)。 

视觉 情境 范式 的 主要 局 限 性 之 一 在 于 无 法 提 
供 加 工时 长 的 数据 ， 因 此 不 能 解答 语言 理解 加 工 
困难 的 相关 问题 (Salverda & Tanenhaus, 2018)。 而 
且 视 觉 情 境 范 式 实验 只 能 在 视觉 空间 中 呈现 数目 
有 限 的 静态 物体 ， 这 也 与 日 常 语言 理解 的 复杂 视 
觉 环 境 有 所 区 别 。 真 实 的 语言 理解 环境 可 能 包括 
更 多 的 物体 以 及 动态 的 动作 、 事 件 等 , 这 也 导致 
了 该 范式 获得 的 结果 在 可 推广 性 上 有 一 定局 限 
(Huettig et al., 2011a)。 此 外 , 在 只 呈现 有 限 数目 物 
体 的 实验 环境 下 ， 听 者 可 能 会 提前 对 语言 输入 形 
成 一 定 的 预期 ， 并 策略 性 地 注视 某 些 物体 ， 因 此 
眼 动 注视 轨迹 可 能 并 不 完全 反映 语言 加 工 的 过 程 
(Henderson & Ferreira，2004) 。 对 于 这 点 质疑 ， 
Dahan 和 Tanenhaus (2004) 根 据 其 在 词汇 识别 上 的 
研究 提出 了 不 同意 见 ， 他 们 发 现 词 频 对 词汇 识别 
的 影响 效应 并 不 会 受到 视觉 空间 中 是 否 存在 竞争 
项 以 及 竞争 项 数目 的 影响 ,由 此 推断 在 视觉 空间 
中 提供 有 限 数目 的 物体 这 一 设置 并 不 会 影响 视觉 
情境 范式 的 有 效 性 。 

视觉 情境 范式 的 眼 动 研究 仍 有 很 大 的 发 展 空 
fe], FSG, 尽管 连接 假设 理论 中 所 提出 的 关于 视 
觉 信 息 和 语言 信息 的 理解 过 程 假设 已 经 被 大 量 实 
证 结果 所 证 实 , 任务 目标 对 语言 加 工 的 重要 作用 
仍然 有 待 进一步 探究 。 对 比 不 同 任务 目标 下 , 语 
言 的 加 工 过 程 如 何 随 着 时 间 发 展 ,将 是 未 来 视觉 
情境 范式 眼 动 研 究 的 方向 之 一 。 近 年 来 ， 眼 动 研 
究 也 开始 使 用 三 维 虚 拟 现实 (VR) 技 术 , 这 一 技术 
创新 可 以 高 度 还 原 自然 的 语言 交流 场景 ,同时 保 
持 对 实验 设置 的 精确 控制 。 一 些 利用 VR 技术 的 
视觉 情境 范式 眼 动 实验 , 成 功 复 现 了 语言 加 工 中 
的 一 些 经 典 结 果 ， 如 预测 性 语言 加 工 (Eichert et al., 
2018; Heyselaar et al., 2020)。 这 类 技术 改进 不 仅 提 
高 了 视觉 情境 范式 的 生态 效 度 ， 还 可 以 用 于 检验 
在 接近 真实 语言 使 用 环境 时 ， 影 响 语 言 加 工 过 程 
的 诸多 因素 。 理 论 和 技术 的 创新 都 为 更 准确 有 效 
地 收集 解读 眼 动 数 据 、 探 索 语 言 加 工 提供 了 新 的 
契机 与 更 多 的 可 能 性 。 
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Visual world paradigm reveals the time course 
of spoken language processing 


WEI Yipu 
(School of Chinese as a Second Language, Peking University, Beijing 100871, China) 


Abstract: The visual world paradigm (VWP) assesses real-time language processing by tracking and 
measuring eye movements in visual contexts. Linking hypotheses, such as the coordinated interplay account 
and the goal-based linking hypothesis, establish the link between eye movements and the cognitive 
processes of language comprehension. Time sensitivity is characteristic of the data generated by this 
paradigm. Analytical methods include the analysis of fixation proportions within time windows, divergence 
point analysis and growth-curve analysis, etc. Studies using the VWP provide important evidence for speech 
and lexical recognition, syntactic parsing, semantic integration, and the processing of discourse and 
pragmatic information. 
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